circlize 之 High-level genomic functions

Original JunJunLab 老俊俊的生信笔记 2022-08-15

收录于合集

这一节将结束 基因组的环形图可视化 了，下一节开启 circlize 绘制 和弦图 的章节。

在本章中，我们将介绍一些创建轨道的 高级函数 。

1、Ideograms（不知道咋翻译好）

circos. initializewithidegram()初始化环形图，如果 cytoband 数据可用，则添加 Ideograms 轨道。实际上，这些 Ideograms 是由 circos.genomicIdeogram()绘制的。circos.genomicIdeogram()创建了一个 Ideograms 的小轨道，可以在环形图的任何地方使用。默认情况下，它为人类基因组 hg19：

circos.initializeWithIdeogram(plotType = c("labels", "axis"))
circos.track(ylim = c(0, 1))
# 把 Ideograms 绘制在第3个轨道
circos.genomicIdeogram()
# 绘制高度0.2的 Ideograms 轨道
circos.genomicIdeogram(track.height = 0.2)

2、热图

对应于基因组区域的矩阵可以用热图可视化。热图完全填满了轨道，并且有连接热图和基因组原始位置的连接线。circos.genomicHeatmap()将连线和热图绘制成两个轨道，并将它们组合成一个完整的轨道。

一般情况下，输入数据框中的所有数值列(不包括前三列)都用于制作热图。列也可以用 numeric.column 指定，可以是数值向量或字符向量。颜色可以指定为颜色矩阵或由 colorRamp2()颜色函数生成的。

连接线轨道和热图轨道的高度可以通过 connection_height 和 heatmap_height 参数来设置，另外，线条和矩形边框的样式参数也可以调整，请查看 circos.genomicHeatmap()的参考文档：

circos.initializeWithIdeogram()
bed = generateRandomBed(nr = 100, nc = 4)
col_fun = colorRamp2(c(-1, 0, 1), c("green", "black", "red"))
circos.genomicHeatmap(bed, col = col_fun, side = "inside", border = "white")
circos.clear()

设置 side = "outside"，把热图放置在外侧，调整热图和连接线的高度，热图单元格边框颜色：

circos.initializeWithIdeogram(plotType = NULL)
circos.genomicHeatmap(bed, col = col_fun, side = "outside",
                      line_col = as.numeric(factor(bed[[1]])),
                      connection_height = 0.3,
                      heatmap_height = 0.2,
                      border = 'white')
circos.genomicIdeogram()
circos.clear()

3、标签

circos.genomicLabels()为指定的区域添加文本标签。标签的位置会自动调整，使它们不会相互重叠。

与 circos.genomicHeatmap()类似，circos.genomicLabels()也创建了两个轨道，其中一个是连接线，另一个是标签。可以通 labels_height = max(strwidth(labels))设置标签的高度为标签的最大宽度。padding 参数控制两个相邻标签之间的间隙：

circos.initializeWithIdeogram()
bed = generateRandomBed(nr = 50, fun = function(k) sample(letters, k, replace = TRUE))
bed[1, 4] = "aaaaa"
circos.genomicLabels(bed, labels.column = 4, side = "inside")
circos.clear()

标签放置在外侧并设置标签和连线颜色：

circos.initializeWithIdeogram(plotType = NULL)
circos.genomicLabels(bed, labels.column = 4, side = "outside",
    col = as.numeric(factor(bed[[1]])), line_col = as.numeric(factor(bed[[1]])))
circos.genomicIdeogram()
circos.clear()

4、基因组坐标

对于 circos. initializewithidegram()，默认情况下，它绘制带有恰当格式的刻度标签的轴。轴是由 circos.genomicAxis()内部实现的，它可以用于在任何轨道上添加基因组坐标轴：

circos.initializeWithIdeogram(plotType = NULL)
circos.genomicIdeogram()
# still work on the ideogram track
# 绘制坐标轴在上边
circos.track(track.index = get.current.track.index(), panel.fun = function(x, y) {
    circos.genomicAxis(h = "top")
})
# 设置轨道高度
circos.track(ylim = c(0, 1), track.height = 0.1)
# 绘制坐标轴朝里，在下边
circos.track(track.index = get.current.track.index(), panel.fun = function(x, y) {
    circos.genomicAxis(h = "bottom", direction = "inside")
})
circos.clear()

5、基因密度图和降雨图

降雨分布图用于可视化基因组区域在基因组中的分布。雨量分布图对于识别 regions 的 cluster 特别有用。在降雨图中，每个点代表一个 region。x 轴对应于基因组坐标，y 轴对应于该区域与其相邻两个 region 的最小距离（log10 转换）。一个 cluster 的 region 将以降雨的形式展示在图中。

circos.genomicRainfall()计算每个区域的邻近距离，并在图上绘制点。由于 circos.genomicRainfall()生成 y 方向的数据(log10(distance))，它实际上是一个创建新轨道的高级函数。

输入数据可以是一个数据框，也可以是数据框的列表：

circos.genoimcRainfall(bed)
circos.genoimcRainfall(bed_list, col = c("red", "green"))

然而，如果 cluster 中的 region 数量很高，点就会重叠，直接评估 cluster 中的 region 数量和密度是不可能的。为了克服这一限制，添加了其他轨道来可视化区域的基因组密度(定义为基因组区域覆盖的基因组窗口)。

circos.genomicDensity()计算一个基因组窗口被 regions 覆盖了多少。它也是一个高级功能，创建一个新的轨道。输入数据可以是单个数据框，也可以是数据框列表：

circos.genomicDensity(bed)
circos.genomicDensity(bed, baseline = 0)
circos.genomicDensity(bed, window.size = 1e6)
circos.genomicDensity(bedlist, col = c("#FF000080", "#0000FF80"))

下面的例子给出了差异甲基化区域(DMR)及其基因组密度的降雨图。在图中，红色对应着 DMRs 的高甲基化(甲基化增加)，蓝色对应着 DMRs 的低甲基化(甲基化缺失)：

load(system.file(package = "circlize", "extdata", "DMR.RData"))
circos.initializeWithIdeogram(chromosome.index = paste0("chr", 1:22))

bed_list = list(DMR_hyper, DMR_hypo)
circos.genomicRainfall(bed_list, pch = 16, cex = 0.4, col = c("#FF000080", "#0000FF80"))
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), track.height = 0.1)
circos.genomicDensity(DMR_hypo, col = c("#0000FF80"), track.height = 0.1)
circos.clear()

circos.genomicDensity()还支持通过设置 count_by = "number"来计算每个窗口重叠区域的数量：

circos.initializeWithIdeogram(chromosome.index = paste0("chr", 1:22))
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), track.height = 0.1)
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), count_by = "number", track.height = 0.1)
circos.clear()

在内部，rainfallTransform()和 genomicDensity()用于计算邻近距离和基因组密度值：

head(rainfallTransform(DMR_hyper))
##      chr   start     end  dist
## 70  chr1  933445  934443 35323
## 104 chr1  969766  970362  4909
## 105 chr1  975271  976767  4909
## 154 chr1 1108819 1109923 31522
## 155 chr1 1141445 1142405 31522
## 157 chr1 1181550 1182782 39145

head(genomicDensity(DMR_hyper, window.size = 1e6))
##    chr   start     end    value
## 1 chr1       1 1000000 0.003093
## 2 chr1  500001 1500000 0.007592
## 3 chr1 1000001 2000000 0.008848
## 4 chr1 1500001 2500000 0.010155
## 5 chr1 2000001 3000000 0.011674
## 6 chr1 2500001 3500000 0.007783

嵌套缩放

1、基本思想

在之前文章中，我们介绍了如何将扇区放大到同一轨道上的同一圆中。如果只需要缩放少数区域，这种方法就可以很好地工作。然而，当需要缩放的区域过多时，该方法将无法有效地工作。接下来，介绍另一种缩放方法，将缩放区域放在不同的圆形图中。

为了说明基本思想，我们首先生成一个随机数据集：

set.seed(123)
df = data.frame(cate = sample(letters[1:8], 400, replace = TRUE),
                x = runif(400),
                y = runif(400),
                stringsAsFactors = FALSE)
df = df[order(df[[1]], df[[2]]), ]
rownames(df) = NULL
df$interval_x = as.character(cut(df$x, c(0, 0.2, 0.4, 0.6, 0.8, 1.0)))
df$name = paste(df$cate, df$interval_x, sep = ":")
df$start = as.numeric(gsub("^\\((\\d(\\.\\d)?).*(\\d(\\.\\d)?)]", "\\1", df$interval_x))
df$end = as.numeric(gsub("^\\((\\d(\\.\\d)?),(\\d(\\.\\d)?)]$", "\\3", df$interval_x))
nm = sample(unique(df$name), 20)
df2 = df[df$name %in% nm, ]

correspondance = unique(df2[, c("cate", "start", "end", "name", "start", "end")])
zoom_sector = unique(df2[, c("name", "start", "end", "cate")])
zoom_data = df2[, c("name", "x", "y")]

data = df[, 1:3]
sector = data.frame(cate = letters[1:8], start = 0, end = 1, stringsAsFactors = FALSE)

sector_col = structure(rand_color(8, transparency = 0.5), names = letters[1:8])

下面的变量用于下游可视化。扇区包含扇区名称和 x 方向坐标：

head(sector, n = 4)
##   cate start end
## 1    a     0   1
## 2    b     0   1
## 3    c     0   1
## 4    d     0   1

data 包含一个轨道的点：

head(data, n = 4)
##   cate          x         y
## 1    a 0.02314449 0.2170480
## 2    a 0.03978064 0.8062479
## 3    a 0.06893260 0.6284048
## 4    a 0.07997291 0.5835629

在扇区中，我们随机抽样几个区间，这些区间将用于缩放。缩放间隔区存储在 zoom_sector 中。在缩放轨道中，每个间隔被视为一个独立的扇区，因此，每个缩放间隔的名称使用了原始扇区名称和间隔本身的组合，便于理解：

head(zoom_sector, n = 4)
##           name start end cate
## 17 a:(0.4,0.6]   0.4 0.6    a
## 48   a:(0.8,1]   0.8 1.0    a
## 57   b:(0,0.2]   0.0 0.2    b
## 76 b:(0.4,0.6]   0.4 0.6    b

缩放间隔区数据：

head(zoom_data, n = 4)
##           name         x         y
## 17 a:(0.4,0.6] 0.4072693 0.3972460
## 18 a:(0.4,0.6] 0.4186692 0.2021846
## 19 a:(0.4,0.6] 0.4481431 0.3554347
## 20 a:(0.4,0.6] 0.4597852 0.6696035

原始扇区和缩放间隔区之间的对应是对应的。该值是一个有六列的数据框：

head(correspondance, n = 4)
##    cate start end        name start.1 end.1
## 17    a   0.4 0.6 a:(0.4,0.6]     0.4   0.6
## 48    a   0.8 1.0   a:(0.8,1]     0.8   1.0
## 57    b   0.0 0.2   b:(0,0.2]     0.0   0.2
## 76    b   0.4 0.6 b:(0.4,0.6]     0.4   0.6

缩放实际上是由两个环形图组成，其中一个是原始轨道，另一个是缩放间隔图。还有一个附加的连接轨道，用于标识缩放的间隔属于哪个扇区。circlize 中的 circos.nested()函数将两个环形图放在一起，排列它们，并自动绘制连接线。

要生成嵌套循环图，需要将生成图的代码包装到一个函数中：

f1 = function() {
    circos.par(gap.degree = 10)
    circos.initialize(sector[, 1], xlim = sector[, 2:3])
    circos.track(data[[1]], x = data[[2]], y = data[[3]], ylim = c(0, 1),
        panel.fun = function(x, y) {
            circos.points(x, y, pch = 16, cex = 0.5, col = "red")
    })
}

f2 = function() {
    circos.par(gap.degree = 2, cell.padding = c(0, 0, 0, 0))
    circos.initialize(zoom_sector[[1]], xlim = as.matrix(zoom_sector[, 2:3]))
    circos.track(zoom_data[[1]], x = zoom_data[[2]], y = zoom_data[[3]],
        panel.fun = function(x, y) {
            circos.points(x, y, pch = 16, cex = 0.5)
        })
}

在上面，f1()是生成原始图的代码，f2()是生成缩放图的代码。它们可以独立执行。

要绘制嵌套缩放环形图，只需要把 f1()、f2()、corresponance 放到 circos.nested()函数里即可：

circos.nested(f1, f2, correspondance)

在上图中，放大的圆被放在原来的圆内部，第二个圆的起始度被自动调整。

通过切换 f1()和 f2()也可以将放大的圆放在外面。实际上，对于 circos.nested()，它并不关心哪一个被缩放了，它们只是两个圆形图和一个 correspondance 数据而已：

circos.nested(f2, f1, correspondance[, c(4:6, 1:3)])

注意事项：

只能应用整个环形图。
如果 canvas.xlim 和 canvas.ylim 在第一个图设置了，应该在绘制第二个图同样再次设置。
默认情况下，第二个 plot 的起始角度会自动调整，以使原始位置和缩放扇区之间的差异最小。但是，用户也可以通过设置 circos.par("start.degree" =…)手动调整第二个 plot 的起始角度，并且在 circos.nested()中必须将起始度设置为 TRUE。
由于函数需要知道两个环形图的信息，所以不要将 circos.clear()放在每个图的末尾。它们在内部会自动添加。

f1()和 f2()只是实现循环绘图的普通代码。还可以添加代码让它更复杂：

sector_col = structure(rand_color(8, transparency = 0.5), names = letters[1:8])

f1 = function() {
    circos.par(gap.degree = 10)
    circos.initialize(sector[, 1], xlim = sector[, 2:3])
    circos.track(data[[1]], x = data[[2]], y = data[[3]], ylim = c(0, 1),
        panel.fun = function(x, y) {
            l = correspondance[[1]] == CELL_META$sector.index
            if(sum(l)) {
                for(i in which(l)) {
                    circos.rect(correspondance[i, 2], CELL_META$cell.ylim[1],
                                correspondance[i, 3], CELL_META$cell.ylim[2],
                                col = sector_col[CELL_META$sector.index],
                                border = sector_col[CELL_META$sector.index])
                }
            }
            circos.points(x, y, pch = 16, cex = 0.5)
            circos.text(CELL_META$xcenter, CELL_META$ylim[2] + mm_y(2),
                CELL_META$sector.index, niceFacing = TRUE, adj = c(0.5, 0))
    })
}

f2 = function() {
    circos.par(gap.degree = 2, cell.padding = c(0, 0, 0, 0))
    circos.initialize(zoom_sector[[1]], xlim = as.matrix(zoom_sector[, 2:3]))
    circos.track(zoom_data[[1]], x = zoom_data[[2]], y = zoom_data[[3]],
        panel.fun = function(x, y) {
            circos.points(x, y, pch = 16, cex = 0.5)
        }, bg.col = sector_col[zoom_sector$cate],
        track.margin = c(0, 0))
}
circos.nested(f1, f2, correspondance, connection_col = sector_col[correspondance[[1]]])

实战演练

可视化 WGBS 的 DMRs 区域

基于标记的全基因组亚硫酸氢盐测序(T-WGBS)是一种只能检测感兴趣的一小部分甲基组的技术。我们将演示如何通过 circlize 可视化从 T-WGBS 数据中检测到的 DMRs。

在加载的示例数据中，tagments 包含已测序的区域，DMR1 包含标记区域中检测到的一个患者的 DMRs。标记区域与原始基因组之间的对应以 correspondance 的方式存储：

load(system.file(package = "circlize", "extdata", "tagments_WGBS_DMR.RData"))
head(tagments, n = 4)
##                   tagments     start       end  chr
## 1   chr1-44876009-45016546  44876009  45016546 chr1
## 2   chr1-90460304-90761641  90460304  90761641 chr1
## 3 chr1-211666507-211692757 211666507 211692757 chr1
## 4   chr2-46387184-46477385  46387184  46477385 chr2

head(DMR1, n = 4)
##                      chr    start      end   methDiff
## 1 chr1-44876009-45016546 44894352 44894643 -0.2812889
## 2 chr1-44876009-45016546 44902069 44902966 -0.3331170
## 3 chr1-90460304-90761641 90535428 90536046 -0.3550701
## 4 chr1-90460304-90761641 90546991 90547262 -0.4310808

head(correspondance, n = 4)
##    chr     start       end                 tagments   start.1     end.1
## 1 chr1  44876009  45016546   chr1-44876009-45016546  44876009  45016546
## 2 chr1  90460304  90761641   chr1-90460304-90761641  90460304  90761641
## 3 chr1 211666507 211692757 chr1-211666507-211692757 211666507 211692757
## 4 chr2  46387184  46477385   chr2-46387184-46477385  46387184  46477385

在下面的代码中，f1()只绘制了全基因组的环形图，f2()绘制了标记区域的环形图：

chr_bg_color = rand_color(22, transparency = 0.8)
names(chr_bg_color) = paste0("chr", 1:22)

f1 = function() {
    circos.par(gap.after = 2, start.degree = 90)
    circos.initializeWithIdeogram(chromosome.index = paste0("chr", 1:22),
        plotType = c("ideogram", "labels"), ideogram.height = 0.03)
}

f2 = function() {
    circos.par(cell.padding = c(0, 0, 0, 0), gap.after = c(rep(1, nrow(tagments)-1), 10))
    circos.genomicInitialize(tagments, plotType = NULL)
    circos.genomicTrack(DMR1, ylim = c(-0.6, 0.6),
        panel.fun = function(region, value, ...) {
            for(h in seq(-0.6, 0.6, by = 0.2)) {
                circos.lines(CELL_META$cell.xlim, c(h, h), lty = 3, col = "#AAAAAA")
            }
            circos.lines(CELL_META$cell.xlim, c(0, 0), lty = 3, col = "#888888")

            circos.genomicPoints(region, value,
                col = ifelse(value[[1]] > 0, "#E41A1C", "#377EB8"),
                pch = 16, cex = 0.5)
    }, bg.col = chr_bg_color[tagments$chr], track.margin = c(0.02, 0))
    circos.yaxis(side = "left", at = seq(-0.6, 0.6, by = 0.3),
        sector.index = get.all.sector.index()[1], labels.cex = 0.4)
    circos.track(ylim = c(0, 1), track.height = mm_h(2),
        bg.col = add_transparency(chr_bg_color[tagments$chr], 0))
}

circos.nested(f1, f2, correspondance, connection_col = chr_bg_color[correspondance[[1]]])

发现更多精彩

关注公众号

欢迎小伙伴留言评论！

今天的分享就到这里了，敬请期待下一篇！

最后欢迎大家分享转发，您的点赞是对我的鼓励和肯定！

如果觉得对您帮助很大，打赏一下吧！

推荐阅读

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

circlize 之 High-level genomic functions

嵌套缩放

注意事项：

实战演练

可视化 WGBS 的 DMRs 区域

今天的分享就到这里了，敬请期待下一篇！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

circlize 之 High-level genomic functions

嵌套缩放

注意事项：

实战演练

可视化 WGBS 的 DMRs 区域

今天的分享就到这里了，敬请期待下一篇！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡